自引入以来,图形注意力网络在图表表示任务中取得了出色的结果。但是,这些网络仅考虑节点之间的成对关系,然后它们无法完全利用许多现实世界数据集中存在的高阶交互。在本文中,我们介绍了细胞注意网络(CANS),这是一种在图表上定义的数据上运行的神经体系结构,将图表示为介绍的细胞复合物的1个骨骼,以捕获高阶相互作用。特别是,我们利用细胞复合物中的下层和上层社区来设计两种独立的掩盖自我发项机制,从而推广了常规的图形注意力策略。罐中使用的方法是层次结构的,并结合了以下步骤:i)从{\ it node demantion}中学习{\ it Edge功能}的提升算法}; ii)一种细胞注意机制,可以在下层和上邻居上找到边缘特征的最佳组合; iii)层次{\ it Edge Pooling}机制,以提取一组紧凑的有意义的功能集。实验结果表明,CAN是一种低复杂性策略,它与基于图的学​​习任务的最新结果相比。
translated by 谷歌翻译
Covid-19在大流行的不同阶段对公众构成了不成比例的心理健康后果。我们使用一种计算方法来捕获引发在线社区对大流行的焦虑的特定方面,并研究这些方面如何随时间变化。首先,我们使用主题分析在R/covid19 \ _support的Reddit帖子样本($ n $ = 86)中确定了九个焦虑(SOA)。然后,我们通过在手动注释的样本($ n $ = 793)上训练Reddit用户的焦虑来自动将SOA标记在较大的年代样本中($ n $ = 6,535)。 9个SOA与最近开发的大流行焦虑测量量表中的项目保持一致。我们观察到,在大流行的前八个月,Reddit用户对健康风险的担忧仍然很高。尽管案件激增稍后发生,但这些担忧却大大减少了。通常,随着大流行的进展,用户的语言披露了SOA的强烈强度。但是,在本研究涵盖的整个期间,人们对心理健康的担忧和未来稳步增长。人们还倾向于使用更强烈的语言来描述心理健康问题,而不是健康风险或死亡问题。我们的结果表明,尽管Covid-19逐渐削弱,但由于适当的对策而逐渐削弱了作为健康威胁,但该在线小组的心理健康状况并不一定会改善。我们的系统为人口健康和流行病学学者奠定了基础,以及时检查引起大流行焦虑的方面。
translated by 谷歌翻译
对脑外伤(TBI)患者的准确预后很难为治疗,患者管理和长期护理提供信息至关重要。年龄,运动和学生反应性,缺氧和低血压以及计算机断层扫描(CT)的放射学发现等患者特征已被确定为TBI结果预测的重要变量。 CT是临床实践中选择的急性成像方式,因为其获取速度和广泛的可用性。但是,这种方式主要用于定性和半定量评估,例如马歇尔评分系统,该系统容易受到主观性和人为错误。这项工作探讨了使用最先进的,深度学习的TBI病变分割方法从常规获得的医院入院CT扫描中提取的成像生物标志物的预测能力。我们使用病变体积和相应的病变统计作为扩展TBI结果预测模型的输入。我们将我们提出的功能的预测能力与马歇尔分数进行比较,并与经典的TBI生物标志物配对。我们发现,在预测不利的TBI结果时,自动提取的定量CT功能的性能与Marshall分数相似或更好。利用自动地图集对齐,我们还确定额叶外病变是不良预后的重要指标。我们的工作可能有助于更好地理解TBI,并提供有关如何使用自动化神经影像分析来改善TBI后预测的新见解。
translated by 谷歌翻译
我们提供了一个方程/可变的免费机器学习(EVFML)框架,以控制通过基于微观/代理模拟器建模的复杂/多尺度系统的集体动力学。该方法避免了构建替代物,还原级模型的需求。〜所提出的实现包括三个步骤:(a)来自基于高维代理的模拟,机器学习(尤其是非线性歧管学习(扩散图)(扩散地图) (DMS))有助于确定一组粗粒变量,该变量参数化了出现/集体动力学的低维歧管。从高维输入空间到低维歧管和背部,通过将DMS与NyStrom扩展和几何谐波耦合来求解;(b)已确定了歧管及其坐标,我们将方程式的方法利用了方程的方法对出现动力学执行数值分叉分析;然后,基于先前的步骤(C),我们设计了数据驱动的嵌入式洗涤控制器,该控制器将基于代理的模拟器驱动其内在的IM精确知道的,新兴的开环不稳定稳态,因此表明该方案对数值近似误差和建模不确定性是可靠的。交通动态模型和(ii)与哑剧的随机金融市场代理模型的平衡。
translated by 谷歌翻译
大语言模型的兴起的一个关注点是它们可能造成重大伤害的潜力,尤其是在偏见,淫秽,版权和私人信息方面进行预处理。新兴的道德方法试图过滤预处理的材料,但是这种方法是临时的,未能考虑到上下文。我们提供了一种以法律为基础的过滤方法,该方法直接解决了过滤材料的权衡。首先,我们收集并提供了一堆法律,这是一个256GB(以及增长)的开源英语法律和行政数据数据集,涵盖法院意见,合同,行政规则和立法记录。对一堆法律进行预处理可能有助于解决有望改善司法接触的法律任务。其次,我们提炼政府已制定的法律规范将有毒或私人内容限制为可行的研究人员,并讨论我们的数据集如何反映这些规范。第三,我们展示了一堆法律如何为研究人员提供直接从数据中学习此类过滤规则的机会,从而为基于模型的处理提供了令人兴奋的新研究方向。
translated by 谷歌翻译
我们介绍了我们的多任务学习方法,以预测人声爆发中的情感,年龄和起源(即祖国/语言)。BUST2VEC利用预先训练的语音表示来捕获原始波形的声学信息,并通过对抗训练结合了模型偏见的概念。我们的模型使用预提取的功能获得了相对30%的性能增长,并在ICML EXVO 2022多任务挑战中的所有参与者中得分最高。
translated by 谷歌翻译
最近,多模式机器翻译(MMT)的研究激增,其中其他模式(例如图像)用于提高文本系统的翻译质量。这种多模式系统的特殊用途是同时机器翻译的任务,在该任务中,已证明视觉上下文可以补充源句子提供的部分信息,尤其是在翻译的早期阶段。在本文中,我们提出了第一个基于变压器的同时MMT体系结构,该体系结构以前尚未在现场探索过。此外,我们使用辅助监督信号扩展了该模型,该信号使用标记的短语区域比对来指导其视觉注意机制。我们在三个语言方向上进行全面的实验,并使用自动指标和手动检查进行彻底的定量和定性分析。我们的结果表明,(i)监督视觉注意力一致地提高了MMT模型的翻译质量,并且(ii)通过监督损失对MMT进行微调,比从SCRATCH训练MMT的MMT可以提高性能。与最先进的模型相比,我们提出的模型可实现多达2.3 bleu和3.5 Meteor点的改善。
translated by 谷歌翻译
制定了具有机器学习模拟(骆驼)项目的宇宙学和天体物理学,通过数千名宇宙的流体动力模拟和机器学习将宇宙学与天体物理学结合起来。骆驼包含4,233个宇宙学仿真,2,049个n-body和2,184个最先进的流体动力模拟,在参数空间中采样巨大的体积。在本文中,我们介绍了骆驼公共数据发布,描述了骆驼模拟的特性和由它们产生的各种数据产品,包括光环,次麦,银河系和空隙目录,功率谱,Bispectra,Lyman - $ \ Alpha $光谱,概率分布函数,光环径向轮廓和X射线光子列表。我们还释放了超过骆驼 - 山姆的数十亿个星系的目录:与Santa Cruz半分析模型相结合的大量N身体模拟。我们释放包含350多个Terabytes的所有数据,并包含143,922个快照,数百万光环,星系和摘要统计数据。我们提供有关如何访问,下载,读取和处理数据AT \ URL {https://camels.readthedocs.io}的进一步技术详细信息。
translated by 谷歌翻译
了解用户对话中的毒性无疑是一个重要问题。正如在以前的工作中所说的那样,解决“隐秘”或隐含毒性案件特别困难,需要上下文。以前很少有研究已经分析了会话语境在人类感知或自动检测模型中的影响。我们深入探讨这两个方向。我们首先分析现有的上下文数据集,并得出结论,人类的毒性标记一般受到对话结构,极性和主题的影响。然后,我们建议通过引入(a)神经架构来将这些发现带入计算检测模型中,以了解会话结构的语境毒性检测,以及(b)可以帮助模拟语境毒性检测的数据增强策略。我们的结果表明了了解谈话结构的神经架构的令人鼓舞的潜力。我们还表明,这些模型可以从合成数据中受益,尤其是在社交媒体领域。
translated by 谷歌翻译
在传统的视觉问题(VQG)中,大多数图像具有多个概念(例如,对象和类别),可以生成问题,但培训模型以模仿培训数据中给出的任意选择概念。这使得训练困难并且还造成评估问题 - 对于大多数图像而言,存在多个有效问题,但人类参考资料只捕获一个或多个。我们呈现指导视觉问题 - VQG的变体,它根据对问题类型和应该探索的对象的期望来解决基于分类信息的问题生成器。我们提出了两个变体:(i)明确指导的模型,使演员(人机或自动化)能够选择哪些对象和类别来生成问题; (ii)基于离散潜在变量的基于离散潜变量,了解了一个隐式导游的模型,该模型将了解条件的哪些对象和类别。在答案类别增强VQA数据集上评估所提出的模型,我们的定量结果显示了对现有技术的大大改进(超过9bleu-4增加)。人类评估验证指导有助于生成语法相干的问题,并与给定的图像和对象相关。
translated by 谷歌翻译